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Introducción 


Uno de los libros más bonitos de divulgación matemática es el escrito por el 
profesor lan Stewart llamado "In Pursuit of the Unknown: 17 Equations That 


Changed The World". 


Hemos decidido honrar aquella elección de la manera más modesta posible 
con nuestra recopilación de algunas ecuaciones que han revolucionado al 


aprendizaje automático mediante bases de datos. 


Las ecuaciones que hemos elegido son las siguientes: 


1. Perceptrón multi-capa y redes neuronales. 


2. Entropía y entropía cruzada para distribuciones de probabilidad. 


3. Fórmula de Bayes e inferencia bayesiana. 
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4. Márgenes entre clases y máquinas de soporte vectorial. 


5. Descomposición del error cuadrático medio como trade-off entre va- 


rianza y sesgo. 
6. Funciones de activación sigmoide y soft-max. 
7. Regularizador de Tychonov y métodos dispersos. 
8. Ley de los grandes números para procesos estacionarios. 
9. Distribución gaussiana y el teorema central de Lévy. 
10. Factorización de matrices en valores singulares. 
11. Algoritmo del gradiente descendente. 
12. Ecuaciones de Bellman y aprendizaje por refuerzo. 
13. Función de pérdida adversarial para modelos generativos. 
14. Cross-correlation o convoluciones entre tensores. 
15. Memoria de largo plazo y modelos recurrentes. 
16. Regla de la cadena y backpropagation 


17. Mecanismo de atención y modelos semi-supervisados. 


17 ecuaciones 
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Les damos la bienvenida a nuestro mini-curso "17 ecuaciones que cambia- 
ron Machine Learning”. El objetivo de este curso es presentar algunas de las 
ecuaciones más importantes de machine learning que enseñaremos a lo lar- 


go de la Ruta a través de la Ciencia de Datos. 


La presentación que hemos elegido para este mini-curso incluye tanto la re- 
lación que existe entre cada ecuación y su uso en machine learning, así como 
una explicación del contexto histórico en el que se desarrolló. A lo largo de 
los distintos cursos de nuestra Ruta a través de la Ciencia de Datos los es- 
tudiantes van a profundizar tanto en el significado como en las sutilezas de 
estas ecuaciones. Este mini-curso debe entenderse como un panorama gene- 
ral sobre el área. La presentación que hemos elegido es progresiva respecto a 


cómo encontrarán estos temas en nuestros cursos. 


1. (Perceptrón multi-capa y redes neuronales, 1943) 


El perceptrón con una sola capa es un modelo matemático que realiza 
predicciones por medio de un promedio ponderado de las caracterís- 
ticas de nuestros datos. Por ejemplo, el rendimiento de una compañía 
podría depender en cierto porcentaje de sus ventas a mayoristas y en 
otro porcentaje de sus ventas a minoristas, y estos porcentajes no siem- 
pre son 50%. En este caso diremos que nuestra variable se comporta li- 
nealmente respecto a otras, pero en algunos casos un fenómeno podría 
no comportarse linealmente. La ecuación del perceptrón multi-capa 


propone un comportamiento no-lineal por medio de concatenación y 
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composición de perceptrones multi-capa. Las poderosas redes neuro- 
nales profundas que se utilizan en tan diversas áreas de la ciencia de 


datos utilizan estas fórmulas para aproximar mejor a las variables. 


Pr (Wip: (W¡X + W;) + W;,,)... 


Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Machine Learning and Al for the Working Analyst y Matemáticas 


para la Ciencia de Datos. 


2. (Entropía y entropía cruzada para distribuciones de probabilidad, 1948) 


Supongamos que D es una muestra de nuestra población que satisface 
ciertas características fijas. Por ejemplo, podríamos pensar en carac- 
terísticas demográficas. Si deseamos segmentar a esta población en n 
grupos distintos, el cálculo de la entropía nos permite valorar la impor- 


tancia de estas características. 


Denotaremos por p; al porcentaje de la población D, que además per- 


tenece a cada una de las clases. La entropía dice lo siguiente: 


E(D) = -pılog: (pı) —...— pnloga (pn) 


Cuando esta cantidad es pequeña esto significa que las características 
que determinan a D son suficientemente representativas para la seg- 


mentación que deseamos. 


BOURBAKI 17 ecuaciones machine learning 05 ÍN DICE 


COLEGIO DE MATEMÁTICAS 


Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Machine Learning and Al for the Working Analyst y Especialización 


en Deep Learning. 


3. (Fórmula de Bayes e inferencia bayesiana, 1763) 


Supongamos que D corresponde a los datos que serán nuestra eviden- 
cia, mientras que M será un modelo matemático que intenta aproxi- 
mar el fenómeno que estamos investigando. Por ejemplo, podríamos 
pensar en D como un histórico de nuestros clientes junto a sus carac- 
terísticas y la cantidad que se les ha facturado hasta la fecha. El modelo 
M en este caso podría ser uno que elige las características más impor- 


tantes de nuestros clientes (feature selection). 


La fórmula de Bayes dice lo siguiente: 


P (MID) =P(D|M)- PUI 
P (D) 


En algunos casos, el lado derecho de la ecuación es sencillo de calcu- 
lar e inclusive podemos añadir conocimiento de experto sobre el pro- 
blema para reducir un poco el espacio de búsqueda. En el caso de los 
clientes, significa que es posible actualizar la probabilidad sobre el fea- 
ture selection a medida que nuestras bases de datos crecen, e inclusive 
añadir información de negocio del estilo: solo me interesan cierto nú- 
mero de características. La entropía cruzada permite calcular la dife- 


rencia entre dos hipótesis D y F sobre la importancia de estas caracte- 
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rísticas. 


Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Machine Learning and Al for the Working Analyst y Matemáticas 


para la Ciencia de Datos. 


. (Márgenes entre clases y máquinas de soporte vectorial, 1992) 


Supongamos que D es una base de datos que contiene información 
clínica sobre pacientes que tienen o no una enfermedad. Deseamos 
encontrar un modelo matemático M que identifique los patrones que 
causan esta enfermedad. Un enfoque clásico en machine learning es 
buscar aquel modelo que cometa la menor cantidad de errores en nues- 
tra base de datos D. Las máquinas de soporte vectorial proponen una 
manera distinta para encontrar estos patrones: concentrarse en buscar 
aquel modelo que se aleje simultáneamente de los registros que están 


enfermos y de los que no lo están. 


Msvm = argmax(Mar g(M, S)) 
M 


La cantidad Marg(M, S) define el margen entre la base de datos y la 
frontera de decisión del modelo. Esta poderosa idea tiene muchas ven- 


tajas desde un punto de vista estadístico. 


Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Machine Learning and Al for the Working Analyst y Matemáticas 


para la Ciencia de Datos. 
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5. (Descomposición del Error cuadrático medio como trade-off entre va- 


rianza y sesgo, 1805, 1991) 


Supongamos que D es una base de datos que incluye información so- 
bre transacciones en línea, así como el monto de la transacción. Si M es 
un modelo que busca predecir el monto utilizando a las características, 


podemos calcular el Error cuadrático medio de la siguiente manera: 


Error (M, D) = Z. Z (M) — yi} = Var(M) + Bias(M) 


Para el caso en el que supongamos que nuestro modelo M es lineal, es 
decir, cuando la predicción es un promedio ponderado de las caracte- 
rísticas de cada transacción, entonces podemos interpretar al primer 
sumando como la varianza de los pesos durante el entrenamiento y 
al segundo como el ruido el cual tradicionalmente es gaussiano. Esta 
descomposición nos permite comprender el dilema entre el ajuste y el 


sobre-ajuste de los modelos en ciencia de datos. 


Podrán encontrar más información sobre estos temas en nuestros cur- 


sos Matemáticas para la Ciencia de Datos. 


6. (Funciones de activación sigmoide y soft-max, 1858) 


Uno de los problemas más difíciles en ciencia de datos es el de encon- 
trar una explicación a los modelos matemáticos entrenados con ba- 
ses de datos que se pueda traducir fácilmente en términos simples y 


de preferencia amigables con los usuarios. Ya hemos hablado de los 
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modelos lineales, los cuales tienen grandes ventajas en este sentido, 
aunque otras desventajas como un gran error de aproximación para fe- 
nómenos más complejos y en particular no-lineales. Una de las herra- 
mientas más poderosas para resolver este problema son las funciones 
de activación conocidas como sigmoides o soft-max, las cuales son la 
base de las regresiones logísticas y nos permiten explicar con transpa- 


rencia el origen de una predicción. 


a (x) = — 
Co 1+e* 


Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Machine Learning and Al for the Working Analyst y Especialización 


en Deep Learning. 


(Regularizador de Tychonov y métodos dispersos, 1970) 


Supongamos que una base de datos D contiene las reseñas de algún 
producto que vendemos en nuestra compañía y deseamos construir 
un modelo de machine learning que prediga cuáles son las reseñas po- 
sitivas y cuáles son las negativas. La cantidad de palabras distintas que 
aparecen en esta base de datos podría crecer exponencialmente con el 
tamaño n de la base de datos y por ello es necesario eliminar algunas de 
las palabras para encontrar un mejor modelo. Las técnicas de regulari- 
zación utilizan métricas que permiten reducir el número de palabras 


consideradas por el modelo de machine learning M. En el caso de Ty- 
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chonov, la fórmula es la siguiente: 


1 
ErroTridge(M,D) = ++ 2 (MG = yi)? + MIMI 


La ecuación anterior corresponde a la regularización Tychonov o Ridge 
y al modificar la última parte de la fórmula introducimos otras técni- 
cas como los métodos dispersos tipo lasso, entre otros. En este caso 
estamos utilizando el error cuadrático medio, pero también es posible 


hacerlo mediante otras métricas. 


Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Machine Learning and Al for the Working Analyst, Matemáticas pa- 


ra la Ciencia de Datos y Especialización en Deep Learning. 


8. (Ley de los grandes números para procesos estacionarios, 1539) 


Si suponemos que X1, X2,..., Xy es una familia de observaciones sobre 
algún fenómeno, diremos que esta familia es estacionaria cuando la 
distribución de cualesquiera dos subconjuntos de estas observaciones 
con la misma distancia en sus índices es la misma. Intuitivamente, es- 
tamos diciendo que las observaciones no solo corresponden al mismo 
fenómeno, sino que además, al considerarlas en grupo, están correcta- 


mente organizadas. 


La ley de los grandes números para estos fenómenos predice la existen- 


cia de un límite: 


BOURBAKI 17 ecuaciones machine learning 10 ÍN DICE 


COLEGIO DE MATEMÁTICAS 


Eo e 
N—=00 N o 


Dentro de los procesos estacionarios están tanto el ruido blanco co- 
mo las cadenas de Markov e incluso los procesos ARIMA para series 
de tiempo. Estos casos corresponden a las siguientes intuiciones sobre 
la base de datos: muestreos estadísticamente representativos, procesos 
con memoria de corto plazo y series de tiempo sin tendencia o tempo- 


ralidad, respectivamente. 


Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Machine Learning and Al for the Working Analyst, Matemáticas pa- 


ra la Ciencia de Datos y Especialización en Deep Learning. 


9. (Distribución gaussiana y el teorema central de Lévy, 1920) 


Supongamos que tenemos una base de datos D que contiene d carac- 
terísticas, todas ellas continuas, tal que el vector de sus promedios es 
igual a mientras que su matriz de covarianza es S. La distribución 
gaussiana que mejor aproxima a esta base de datos es la definida por la 


siguiente fórmula: 


l X1 Xd 1 e T 
P (o x1] x ... x (—00, x ==) | e72 -WS (t-u) qt 
Gauss OO, X1 00, Xd Em 425412 ER a 


Aunque es plausible que una base de datos no sea correctamente apro- 
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ximada por una distribución gaussiana, el teorema del límite central 
asegura que los errores que comete la aproximación de la ley de los 
grandes números en el punto anterior siempre serán gaussianos. Este 
teorema permite definir intervalos de confianza, los cuales están suje- 


tos al cumplimiento de las hipótesis sobre la base de datos. 


Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Machine Learning and Al for the Working Analyst y Matemáticas 


para la Ciencia de Datos. 


(Factorización de matrices en valores singulares, 1873) 


Pensemos en el caso de Netflix y su base de datos, donde para cada 
usuario conocemos las películas o series que han visto hasta el mo- 
mento. El principal problema de esta base de datos es que la gran ma- 
yoría de los registros tienen menos del uno porciento de registros nu- 
los, por lo que es imposible matemáticamente hablando encontrar se- 
mejanzas entre ellos. Gracias a los teoremas de factorización de matri- 
ces es posible descomponer la base de datos de Netflix en tres bases 
de datos con tamaños mucho menores que no solo permiten calcular 
semejanzas entre usuarios, sino también entre películas e incluso en- 
tre películas y usuarios, lo cual es muy útil para construir sistemas de 


recomendación. 


XNetflix = Uysuarios* D* Vseries 
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Podrán encontrar más información sobre estos temas en nuestro curso 


Matemáticas para la Ciencia de Datos. 


(Algoritmo del gradiente descendente, 1847) 


El proceso del entrenamiento de los modelos utilizando bases de datos 
es un proceso complicado para el cual es necesario tener algoritmos 
que aproximen a nuestros datos eficazmente. Una de las grandes ideas 
matemáticas utilizadas en machine learning fue propuesta por Cauchy 
como método de optimización de las funciones de error. La idea intui- 
tiva detrás de este algoritmo es la siguiente: si un modelo comete un 
error en nuestro conjunto de entrenamiento y calculamos la derivada 
de este error, al restarle iterativamente esta derivada estamos disminui- 


remos el error en las siguientes iteraciones. 


M1 = M;-VError(M:;) 


Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Matemáticas para la Ciencia de Datos y Especialización en Deep 


Learning. 


(Ecuaciones de Bellman y aprendizaje por refuerzo, 1953) 


Supongamos que estamos en una posición s en un juego de ajedrez pa- 
rametrizada por distintas variables (posiciones de las piezas, número 
de jugadas, etc.). Si x es una estrategia de juego, es posible evaluar con 


exactitud la calidad de esta estrategia en s utilizando las evaluaciones 
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de otras estrategias. 


Va (5) = E [R (s, 7t (s))] aE (s'1s, 7 (s)) Vz (s')) 


Gracias a esta ecuación es posible reducir el espacio de búsqueda don- 
de encontramos las estrategias óptimas y así vencer lo que se conoce 
como la maldición de la dimensión. Estas ecuaciones han permitido 


construir modelos de inteligencia artificial verdaderamente poderosos. 


Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Machine Learning and AI for the Working Analyst, Matemáticas pa- 


ra la Ciencia de Datos y Especialización en Deep Learning. 


(Cross-correlation o convoluciones entre tensores, 1807) 


Supongamos que tenemos una imagen J a la cual queremos aplicarle 
un filtro F. Los objetivos de hacer esto podrían ser muy diversos, pe- 
ro una de las intuiciones más útiles es porque queremos comprimir la 
información. Para este caso y muchos otros como la detección de obje- 
tos, por ejemplo, las correlaciones son operaciones matemáticas muy 
importantes que promedian los píxeles de una imagen siguiendo una 
regla constante a lo largo y alto de la imagen. La fórmula de la correla- 


ción cruzada es la siguiente: 


Ux F)rs= a 15) 
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Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Machine Learning and Al for the Working Analyst y Especialización 


en Deep Learning. 


(Función de pérdida adversarial para modelos generativos, 2014) 


Las tareas generativas dentro de machine learning son muy complica- 
das, pues requieren aproximar funciones. Al tratar inteligencia artificial 
estas funciones se vuelven muy complejas, como el caso de las imáge- 
nes, en donde tenemos tantos grados de libertad como píxeles. Una 
manera muy inteligente para optimizar a los modelos generativos es 
mediante la ayuda de un modelo de clasificación supervisado. La idea 
general detrás de las Generative Adversarial Networks consiste en si- 
multáneamente construir una base de datos donde, por definición, los 
registros generados son falsos y los de una base de datos fija serán los 
únicos verdaderos. La función de optimización en este caso coincide 
con un juego de suma cero, donde lo que gana un modelo de clasifica- 


ción es lo que pierde el modelo generativo y viceversa. 


max(min(errc(D)) 
G C 
Podrán encontrar más información sobre estos temas en nuestro cuso 
de Especialización en Deep Learning. 


(Memoria de largo plazo y modelos recurrentes, 1999) 


Así como las convoluciones son una operación matemática que per- 
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mite inducir un sesgo sobre las operaciones entre imágenes, el proce- 
samiento del lenguaje natural y las series de tiempo requieren que las 
redes neuroanles tengan mejores arquitecturas que se amolden a la es- 
tructura de los datos. Las redes neuronales recurrentes modernas pro- 
ponen un método para que las memorias de largo y corto plazo sim- 
paticen y se puedan encontrar correlaciones largas y cortas al mismo 
tiempo. Semánticamente, lo anterior es muy importante, pues tanto las 
palabras lejanas como las cercanas pueden tener alguna importancia 


en nuestros textos. 


li = f (Ppt, Cr-1) © lr + i (pt, Cr-1) © at 


Podrán encontrar más información sobre estos temas en nuestros cur- 
sos Machine Learning and Al for the Working Analyst y Especialización 


en Deep Learning. 


(Regla de la cadena y backpropagation, 1986) 


Las redes neuronales profundas pueden tener incluso trillones de pará- 
metros que se entrenarán mediante un algoritmo conocido como back- 
propagation. Este algoritmo hace una elección inteligente y eficaz del 
cálculo de las derivadas que se harán para implementar el método del 
gradiente. Recordemos desde la fórmula de los perceptrones, pero tam- 
bién para el caso de las redes convolucionales y recurrentes, que las ite- 


raciones entre distintas capas buscan aumentar la capacidad expresiva 
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de los modelos, lo cual no tiene que ser necesariamente fácil desde un 
punto de vista computacional. La fórmula en la que se basa este algo- 
ritmo es la famosa regla de la cadena, la cual relaciona, por ejemplo, 
un portafolio de inversión P con los combustibles que se utilizan para 


generar bienes B; de los cuales dependerá el portafolio P. 


ôP > ôC 0Bj 
ôC jsn ôB j ÓX 
Podrán encontrar más información sobre estos temas en nuestros cur- 


sos Matemáticas para la Ciencia de Datos y Especialización en Deep 


Learning. 


(Mecanismo de atención y modelos semi-supervisados, 2017) 


Supongamos que deseamos que un modelo de inteligencia artificial 
aprenda a buscar información dinámicamente utilizando algunos ca- 
sos en los que buscó información exitosamente. Existe una arquitec- 
tura que permite realizar esto y es conocido como el mecanismo de 
atención, la ecuación fundamental la mostramos a continuación y en 
este caso podemos entender a B como aquello que estamos buscan- 
do en la memoria M mientras que I serán las instrucciones dinámicas 
que aprenderá el modelo de inteligencia artificial. En el caso del texto 
esta ecuación es muy importante pues permite realizar búsquedas en 


partes anteriores de nuestros textos. 
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Atencion(B, 1, M) = Softmaxt—):M 
Le 


Podrán encontrar más información sobre estos temas en nuestro curso 


Especialización en Deep Learning. 
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